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了 此 


摘 要 : 针对 传统 的 偏 最 小 二 乘法 只 考虑 单 特征 的 重要 性 以 及 特征 之 间 存 在 宛 余 和 多 重 共 线性 等 问题 ， 将 特征 之 间 的 
统计 相关 性 引入 到 传统 的 偏 最 小 二 乘 分 析 中 ， 构 造 了 一 种 基于 特征 相关 的 偏 最 小 二 乘 模型 。 首 先 利 用 特征 相关 度 对 特 
征 进 行 评估 预选 出 特征 组 ， 然 后 将 其 放 入 偏 最 小 二 乘 模型 中 进行 训练 ， 评 估 该 特征 组 是 否 可 取 。 结 合 前 向 贪心 搜索 策 
略 依次 评价 候选 特征 , 并 选中 使 目标 函数 最 小 的 候选 特征 加 入 到 已 选 特征 。 分别 采用 麻 杰 五 甘 汤 君 药 止 咳 、 平 喘 和 UCTI 
数据 集 进行 分 析 处 理 ， 实 验 结果 表明 ， 该 特征 选择 方法 能 较 好 寻找 较 优 的 特征 组 。 
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PLS feature selection method based on feature correlation 


Zeng Qingxia’, Du Jianqiang*, Nie Bin’, Yu Riyue®, Yu Fang^, Huang Canyi^ 
(School of Computy Jiangxi University of Traditional Chinese Medicine, Nanchang 330004, China) 


Abstract: The traditional partial least squares method only considers the importance of single features and it exists the 
redundancy and multicollinearity among the features. The statistical correlation between features is involved into the traditional 
partial least squares analysis, and constructed the model of PLS feature selection based on feature correlation. Firstly, the feature 
group 1s pre-selected by using of the feature relevance, and then put into the partial least squares model for training to assess 
whether the feature group is desirable. Combining with the greedy search strategy, the candidate features are evaluated one by 
one, and the candidate features with the smallest objective function are added to the selected features. Respectively, using the 


data of the maxingshigan decoction of the monarch drug to treat the asthma or cough and UCI data sets to analyze . The 


experimental results show that the feature selection method can find an optimal feature group. 


Key Words: TCM information ; partial least squares; feature correlation ; feature selection 


准则 特征 选择 可 分 为 filter 和 (筛选 法 )、wrappert51 (封装 法 ) 以 
及 embedded( 骨 入 式 ) 三 类 。Filter 需要 评价 特征 相关 性 的 评 
随 着 科学 的 发 展 ,数据 挖掘 领域 需 处 理 的 对 象 越 来 越 复杂 ， ”分 函数 和 立 值 判别 法 来 选择 出 得 分 最 高 的 特征 子 集 , Filter 训练 
其 数据 维度 也 在 急剧 增加 。 较 高 的 维 数 容易 引发 “ 维 数 灾难 ”， 速度 快 ， 但 评估 与 后 续 学 习 算法 的 性 能 偏差 较 大 。Wrapper 利 
随 着 维 数 的 增加 ， 计 算 复杂 度 显 著 提 高 而 分 类 器 的 性 能 急剧 下 ”用 后 续 学 习 算法 的 训练 准确 率 评 估 特 征 子 集 ,偏差 小 计算 量 大 ， 
降 。 因 此 ， 必 须 对 数据 进行 特征 降 维 ， 特 征 降 维 有 两 种 方式 : 不 适合 大 数据 集 .Embedded 的 出 现 主要 是 为 了 解决 Wrapper 在 
和 特征 提取 。 处 理 不 同 数据 集 时 ， 分 类 模型 需要 重 构 代 价 高 等 问题 四 。 它 将 
特征 选择 是 指 在 原始 特征 空间 中 选择 能 让 给 定 任务 的 评价 ”特征 选择 与 分 类 模型 的 学 习 过 程 结合 ， 有 着 高 效 的 时 空 性 能 及 
’ 最 优 的 特征 子 集 的 过 程 ， 是 模式 识别 、 机 器 学 习 等 领 ” 较 好 的 分 类 精度 。 
域 中 数据 预 处 理 的 关键 步骤 之 一 [4。 其 主要 目的 是 在 不 显著 降 偏 最 小 二 乘法 (partial least square, PLS) 在 自 变量 间 存 在 较 
低 分 类 精度 的 情况 下 ， 选 择 一 个 最 优 的 特征 子 集 ， 并 且 移 除 不 高 相关 性 时 ,提出 了 一 种 多 因 变 量 对 多 因 变 量 的 回归 建 模 方法 ， 
相关 或 元 余 的 特征 ， 使 留 下 的 特征 具有 更 强 的 分 辨 率 申 。 其 中 ”可 以 有 效 地 解决 多 重 共 线性 问题 1 基于 这 种 优势 ， 李 建 更 等 人 
评价 准则 是 特征 选择 算法 中 的 关键 步骤 ， 包 括 距 离 度 量 、 信 息 ”外 提 出 了 基于 逐步 提取 偏 最 小 二 乘 主 成 分 的 特征 选择 方法 ， 通 
度量 、 依 赖 性 度量 以 及 一 致 性 度量 。 在 数据 挖掘 中 ， 基 于 评价 ”过 重复 利用 偏 最 小 二 乘 提 取 主 成 分 并 选择 权重 较 大 的 基因 ; 李 
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胜 等 人 外 提出 了 改进 的 量子 遗传 偏 最 小 二 乘 特 征 选 择 方法 ， 该 


算法 通过 赋予 种 群 初始 值 并 设计 了 一 种 新 的 适应 度 函 数 ， 结 合 


偏 最 小 二 乘法 进行 特征 选择 ; 


Nguyen 等 人 (9 以 偏 最 小 二 乘 算 


LD) 和 二 次 线性 判 


法 作为 特征 降 维 


用 线性 判别 分 析 (logistic discrimination, 


别 分 析 (quadratic discrimination analysis， 


方法 , 采 


QDA) 算法 构建 分 类 器 ， 用 于 对 数据 的 分 类 。 


因此 ， 本 文 提出 了 


种 基于 特征 相关 的 偏 最 小 二 乘 特 征 选 


二 


择 方法 


。 利 用 


度 对 特征 进行 评估 预选 出 特征 子 集 ， 


寺 征 相关 


后 将 其 放 入 偏 最 小 二 乘 模型 中 进行 j 
取 。 结 合 前 向 贪心 搜索 策 


可 


ER 
冰 育 优 


层 ， 


1.2 ”搜索 特征 子 集 空间 


CFS 首先 从 训练 集中 计算 特 行 


XIV 全 


China 人 下 
等 : 基于 特征 相关 的 偏 最 小 二 来 特征 选择 方法 


然后 用 前 向 选择 搜索 策略 (forward 
搜索 特征 子 集 空间 ， 


BE)。 前 


没有 合适 的 特征 加 入 。 后 向 消 


也 可 使 用 其 他 的 搜索 方法 ， 包 括 最 佳 优先 
搜索 (best first search，BFS)、 后 向 消除 (backward elimination， 
向 选择 刚 开始 没有 特征 , 然后 贪心 地 增加 一 个 特征 


与 类 和 特征 与 特征 相关 和 矩阵， 


Selection search strategy, FS) 


直到 


贪心 地 去 除 一 个 特有 


除开 始 有 全 部 特征 ， 然 后 每 一 次 


FE 直到 估计 值 不 j 


对 降低 。 最 佳 优 先 ] 


穆 ， 评 估 该 特征 子 集 是 否 
各 依次 评价 候选 特征 ， 


| 


标 函数 最 小 自 


具备 训练 速度 快 、 
适合 大 数据 集 、 计 算 量 大 等 缺点 ， 从 


的 候选 特征 加 入 到 已 选 特征 。 该 特征 选择 方法 不 
局 部 最 优等 特点 ， 同 时 还 弥补 了 Wrapper 不 
而 找 出 较 优 的 特征 子 集 。 


1 ”基于 相关 性 的 特征 选择 


Hallt1 于 1999 年 提出 基于 相关 性 的 特征 选择 (correlation- 


based feature 


selection, CFS) 方 法 。CFS 方法 是 一 种 典型 的 filter 


式 特征 选择 方法 ， 它 启发 式 地 对 单一 特征 对 应 于 每 个 分 类 的 作 


他 两 种 搜索 方法 差不多 。 可 以 开始 于 空 集 或 全 
例 ， 开 始 时 没有 特征 选择 ， 并 产生 了 所 有 可 能 


从 


搜索 和 其 


集 , 以 空 集 M 为 


算 特 征 的 估计 值 (1 


个 特征 进入 MM ， 


依次 递归 


征 进 入 MM ,如 果 这 两 个 特征 的 Merik 
则 去 除 这 个 第 二 个 最 大 的 Merit, 值 


的 单 


Merit 值 表示 )， 并 选择 Merit 


然后 选择 第 二 个 拥有 


值 4 


个 特征 ; 计 


值 最 大 的 


最 大 的 Merit, 值 的 特 
`\ 于 原来 的 Merit, 值 ， 


的 特征 
， 找 出 使 merit 最 大 的 特征 组 合 


? 然后 在 


o 


进行 下 一 个 


» 


基于 特征 相关 的 偏 最 小 二 乘 特 征 选择 (PLS 


feature selection based on feature correlation, 


的 是 多 因 变 
相关 性 或 样 


变量 集合 


加 全 PLSCF) 

用 来 进行 评价 ， 从 而 得 出 最 终 的 特征 子 集 。 
1.1 特征 估计 偏 最 小 二 乘 回归 IIPLS) 是 一 种 新 型 的 多 元 统计 分 析 方 法 ， 

CFS 估计 特征 子 集 并 对 特征 子 集 而 不 是 单个 特征 进行 排序 。 “与 传统 的 最 小 二 乘 回归 不 同 ， 偏 最 小 二 乘 回归 研究 
其 核心 是 采用 启发 式 的 方式 来 评估 特征 子 集 的 价值 。CFS 通过 量 对 多 自 变 量 的 回归 建 模 。 特 别 是 当 变 量 存在 多 重 
计算 特征 之 间 的 相关 性 以 及 特征 与 类 标 之 间 的 相关 性 来 实现 特 本 点 数据 少 于 变量 个 数 的 时 候 ,采用 偏 最 小 二 乘 回归 模型 更 为 
征 的 选择 ， 其 目的 是 使 被 选中 的 特征 之 间 彼 此 尽 可 能 不 相关 ， 有 效 。 
而 与 类 标 之 间 高 度 相 关 。CFS 的 启发 式 方程 为 2.1 偏 最 小 二 乘 回归 建 模 思想 

kr 存在 自 变量 集合 X= (xz) 和 因 


f+ kk -Dr 


其 中 : Merit, 表示 包含 上 个 特征 的 特征 子 集 8 的 ‘merit* (类 别 


区 分 能 力 )， 


ry 是 特征 了 之 间 


rj 表示 类 别 c 与 特征 (fe 5 ) 的 平均 相关 系数 ， 
的 平均 相关 系数 。 了 为 Pearson 相关 系数 ， 所 


有 的 变量 需要 标准 


EE 化。 分子 部 分 表示 特征 子 集 5 的 类 预测 能 


分 母 表示 特征 子 集 5 中 特征 的 元 余 程 度 。 因 此 分 子 越 大 表示 特 


征 子 集 $ 的 类 预测 能 力 越 强 ， 


越 小 。 
特 秀 


F 选 择 就 是 选择 一 组 特征 构成 特征 子 集 ， 该 子 集 与 类 别 


分 母 越 小 表示 该 特征 子 集 的 元 余 


高 度 相 关 ， 


但 在 CF 


Merit, 的 值 越 大 ， 当 前 特征 子 集 9 对 于 分 类 的 贡献 越 大 ， 是 优 
良 的 特征 子 集 。 


牛 米 和 互信 息 的 计算 方式 来 对 特征 
评价 。 因 此 针对 数据 是 连续 性 的 随机 变量 时 就 难以 处 理 ， 基 于 


晶 是 子 集中 的 特征 之 间 高 度 不 相关 。 


此 可 见 


S 中， 特征 必须 是 离散 的 随机 变量 ,而 日 


了 = (3) ,为 了 
X 中 提取 第 一 个 成 分 4 ， 使 得 方差 Var(t) mar 。 在 Y 中 提取 第 


一 个 成 分 岂 ) 


rt) 一 ma 。 然 后 将 和 uw 进行 多 元 线性 下 


腊 


o 


2.2 


用 同样 的 方法 依次 迭代 。 用 交叉 有 效 性 
所 需要 提取 的 主 成 分 个 数 ， 停 止 迭 代 ， 建 立 
天 


能 最 好 地 概括 原 数据 信息 的 综合 变量 


,在 


各 采用 前 向 选择 。 
该 算法 将 PLSC 


< 


基于 PLSCF 的 前 向 选择 搜索 策略 算法 
以 CFS 度量 相应 特征 子 集 的 类 间 区 分 能 力 和 PLS 开 
型 的 残 差 平方 和 (sum of squares for error, SSE) 作 为 选择 相应 特 
征 子 集 的 评价 指标 , 称 这 种 方法 为 PLSCF 讨 


使 得 方差 Vartu)>mar ， 并 使 得 相关 性 
归 , 得 到 残 差 向 量 ， 

确定 偏 最 小 二 乘 回归 中 

最 小 二 乘 回归 模 


归 模 


F 价 准则 。 而 搜索 策 


F 特征 评价 准则 与 前 


之 间 和 特征 与 类 标 之 间 进 行 


此 ， 针 对 数 扩 


是 连续 性 随机 变量 时 可 通过 Pearson 相关 系数 0 


来 计算 特征 之 间 的 相关 性 以 及 特征 与 类 标 之 间 的 相关 性 。 相 关 
系数 的 绝对 值 越 大 ， 则 相关 性 越 强 ， 相 关系 数 越 接近 于 0， 则 


相关 度 越 弱 。 


首先 加 入 最 具有 类 间 


区 分 能 


依据 加 入 特 和 


降 , 则 保留 加 入 的 特 


选中 的 最 


选择 特征 组 合 最 具有 类 间 


加 入 的 特征 是 否 保 留 。 


直到 所 有 特征 都 被 测 
竺 特征 子 集 。 算 法 伪 代 码 描述 见 算 法 1。 


然后 迭 


句 选择 搜索 策 
的 一 个 特征 ， 


各 结合 。 


代 加 入 与 已 


征 , 否则 


区 分 能 力 的 相应 特征 ，2 
FE 之 后 的 特征 子 集 对 应 PLS 模型 的 残 差 平 方 和 判定 
若 当 前 特征 子 集 训练 所 得 PLS 的 SSE 下 
I 除 加 入 的 特征 。 依 次 


后 浮动 部 分 


重复 实验 ， 


试 过 。 最 后 留 在 特 条 


E 子 集中 的 


特征 构成 被 
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算法 1 基于 PLSCF 的 Fs 混合 特征 选择 算法 
输入 : 当前 训练 集 和 测试 集 

输出 : 特征 子 入 
Setp1 将 数据 进行 预 处 理 
Step2 特征 估计 
设 S={f|i=1,2,.… 
构成 的 子 集 ， 初 始 为 空 集 ， 


while SG DO 


C 


mt 


, 111} 为 全 部 特征 构成 的 集合 ， 
即 C= 亿 


C 为 被 选择 特征 


kr 
根据 Meri = Ty 在 训练 
i 
选择 最 重要 的 特征 f= max{ ,i=1,2,.…,m} 
前 向 选择 搜索 策略 评价 候选 特征 值 
令 9 = 一 { 太 


令 C=CU{ 


使 用 C 中 的 特征 训练 PLS， 得 到 一 个 PLS 预测 模型 
记录 该 模型 对 训练 集 和 测试 集 的 残 差 平方 和 SSETrain 和 SSETest 


站 上 计算 每 个 特征 的 区 分 能 力 


Step3 使 


if SSETrain > pressETrain then 


C=C-—t{selected f'} 


max 


Step4 end 
3 ”实验 结果 及 分 析 
本 文 的 实验 数据 主要 来 源 于 江西 中 医药 大 学 重点 实验 室 的 


a 
家 痛 段 ， 寺 : 


在 实验 的 


Chi 
基于 特征 相关 的 偏 最 小 


\ 体 过 程 中 ， 通 过 


naXiv 会 
二 来 特 4 


在 期 刊 


选择 方法 


调整 模型 参数 使 得 模型 达到 最 


优 ， 且 在 同一 学 习 训练 集 的 水 习 


下 对 两 种 算法 效果 进行 比较 。 


分 别 考 察 训 练 集 残 差 平 方 和 (sum of squares for error of train, 
SSETrain) 和 测试 集 残 差 平 方 和 (sum of squares for error of test， 
SSETest)。 实 验 结果 如 表 2 所 示 。 


根据 表 2 的 实验 结果 可 知 ， 


算法 与 CFS 算法 并 结合 FC 搜索 策 
练 集 和 测试 集 的 残 差 平方 和 相差 不 大 ， 
E 选 择 的 效果 差不多 。 例 如 ， 在 CCPP 数据 上 ， 两 


数据 进行 特 行 


在 以 上 七 组 数据 集 上 , 用 SVM 
针 略 进行 特征 选择 所 得 出 的 训 
说 明 两 者 对 于 以 上 类 型 


种 算法 的 训练 集 和 测试 集 的 残 差 平方 和 分 别 为 100.3872 和 


112.4920、4.2302 和 6.5398 。 在 
合 FC 搜索 策略 进行 
方 和 , 相 比 较 前 两 种 算法 


特征 选择 所 得 的 测试 集 和 训练 集 的 残 差 平 
着 明显 的 降低 。 例如 : 在 数据 集 AQ 


而 对 于 提出 的 PLSCF 方法 并 结 


上 ， 三 种 算法 的 测试 集 和 训练 


集 残 差 平方 和 分 别 为 4.6118、 


3.7188、0.2328 和 0.0385、0.0894、0.0106。 在 CASP、Housing 


以 及 CCPP 数据 集 上 也 是 如 此 。 


及 Slump 上 ,三 种 算法 得 出 的 训练 集 和 测试 集 的 残 差 平方 和 相 
其 中 ， 在 Slump 数据 集 上 ，CFS 算法 的 训练 集 的 
残 差 平方 和 上 小 于 PLSCF 算法 日 


差 并 不 明显 。 


测试 集 的 残 差 平方 和 大 于 PL 


而 在 数据 集 MXZK、MXPC 以 


， 分 别 为 0.3049 和 0.3091， 但 
SCF 算法 ， 分 别 为 0.0312 和 


0.03041, 这 是 因为 不 同 的 数据 


有 着 不 同 的 实验 效果 且 所 选择 的 


特征 子 集 
间 普 遍 比 


厅 杏 石 甘 汤 止咳 数据 (MXZK)、 平 喘 数 据 (MXPC) 和 UCI 数据 集 
的 Air Quality、CASP、Slump、Housing 和 CCPP FoldsSx2_ppU4。 
3.1 实验 数据 说 明 

麻 禁 石 甘 汤 咳 嘴 数 据 和 UCI 数据 集 Air Quality、CASP、 
Slump 、 ENB2012 data 、 CBM Dataset 、 
CCPP_Folds5x2_pp 的 基本 信息 如 表 1 所 示 。 


Housing 、 


表 1 数据 集 信息 
数据 集 ” 自 变 量 个 数 。” 因 变量 个 数 ”样本 数 
MXZK 5 1 62 
MXPC 3 1 46 
AQ 11 1 9357 
CASP 9 1 45730 
Slump 7 3 103 
Housing 13 1 506 
CCPP 4 1 9567 
3.2 ”实验 结果 及 分 析 
为 验证 提出 的 PLSCF 的 特征 选择 方法 的 可 行 性 和 有 效 性 ， 
将 七 个 数据 集 分 别 采用 支持 向 量 机 (SVM)、 基 于 相关 性 的 特征 
选择 (CFS) 以 及 基于 特征 相关 的 偏 最 小 二 乘 特征 选择 (PLSCF) 
进行 实验 比较 ， 并 采用 前 向 选择 搜索 策略 搜索 子 集 。 将 数据 按 


照 7:3 的 比例 随机 划分 ，70% 构 建 学 习 训 练 集 ，30% 做 测试 。 为 
了 得 到 具有 统计 意义 的 实验 结果 ， 


征 评价 时 需要 用 


非 全 局 最 优 ， 只 能 是 较 优 。SVM 和 CFS 的 运行 时 
PLSCF 少 ， 这 是 因为 PLSCF 特征 选择 算法 在 每 次 特 


到 PLS 算法 ， 增 加 了 程序 的 运行 时 间 。 


表 2 实验 结果 比较 
SSETrain SSETest runtime (ms) 
数据 集 
SVM CFS PLSCF SVM CFS PLSCF SVM CFS PLSCF 

MXZK 0.5321 0.6497 0.4275 12.4512 13.7281 11.9978 24 23 54 
MXPC 2.4712 3.5602 1.4352 19.4212 17.5431 15.3214 40 34 59 

AQ 4.6118 3.7188 0.2328 0.0385 0.0894 0.0106 304 215 1041 
CASP 2378.6302 3464.840 2576.299 300.1425 308.7589 224.3983 342 452 2205 
Slump 0.4218 0.3049 0.3091 0.0216 0.0312 0.03041 43 45 72 
Housing 17.1057 14.0089 6.2314 0.5402 0.6527 0.3365 65 75 124 


CCPP 


100.3872 112.4920 32.7869 4.2302 


6.5398 2.0724 1204 1025 2418 


为 了 更 直观 地 显示 实验 结 
练 集 残 差 平 方 和 和 测试 集 残 差 了 


RR 分别 绘 制图 1 和 2 以 体现 训 
F 方 和 的 波动 情况 。 


在 不 同 算法 上 的 测试 集 的 残 差 了 


式 : 


分 别 将 训练 集 和 测试 集 的 残 差 平 方 和 进行 中 心 化 处 理 ， 根 


据 集 的 训练 集 和 测试 集 的 数量 级 不 同 ， 为 了 方便 


波动 情况 ， 将 它们 统一 数据 中 心 化 到 [0,1]。 


比较 各 数据 集 
F 方 和 与 训练 集 的 残 差 平方 和 的 
数据 中 心 化 采用 公 


据 该 公式 ， 使 得 图 形 在 一 个 数量 


级 别 上 方便 进行 比较 ， 绘 制 出 
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